從賭徒到煉金師：30 天修練總結

2025 iThome 鐵人賽

DAY 30

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 30 篇

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-10-14 21:25:51

97 瀏覽

分享至

還記得第一天嗎？

30 天前，你可能還在對著 AI 不斷按「重試」按鈕，祈禱下一次能得到更好的結果。那種焦慮感就像在賭場擲骰子——全憑運氣，沒有方法。

但現在不一樣了。你學會了調配精準的提示配方、管理 AI 的記憶、防止幻覺、建立協作系統、設計安全護欄。更重要的是，你知道該問什麼問題、該監控什麼指標、該優化哪個環節。

讓我們快速回顧這段旅程。

七個階段的冒險

階段一：打破魔法盒子的迷思 (Day 1-5)

旅程從一個殘酷真相開始：AI 不是魔法盒子。「這對我很重要」「我會給你小費」這些情緒勒索在早期可能有效，但現代 AI 需要的是科學配方——角色設定、結構化指令、範例約束、思維鏈引導。

然後我們遇到了震撼教育：Context Rot。Chroma 團隊的研究顯示，AI 的記憶不是越多越好，而是會隨著輸入增加而「腐化」。語意迷霧術、干擾陷阱、連簡單的複製貼上都能讓 AI 翻車。這個發現讓我們理解：資訊品質比資訊數量更重要。

階段二：掌握 Context Engineering (Day 6-9)

理解了記憶的限制後，我們學會了 Context Engineering——不只是「怎麼問」，更要掌控「AI 看到什麼」。

六大組成要素：Instructions、User Prompt、Long-Term Memory、State/History、Retrieved Information、Available Tools

WSCI 四大策略：

Write：外接記憶系統 (Scratchpads、Memories、State)
Select：精準檢索相關資訊，而非全部塞進去
Compress：對話摘要、動態修剪、知識精煉
Isolate：專業分工，每個 Agent 只處理自己領域

階段三：Multi-Agent 協作 (Day 10-16)

AI 不再是孤軍奮戰，而是開始像人類團隊一樣協作。

A2A 協議讓不同組織的 Agent 互通：Agent Card 是數位名片、推播通知處理非同步任務、三種通訊協議 (JSON-RPC、gRPC、HTTP+JSON) 提供彈性選擇。

Google ADK 的五種協作模式更是展示了團隊分工的精髓：

Coordinator/Dispatcher：總監智慧分派任務
Sequential Pipeline：像生產線依序處理
Parallel Fan-Out/Gather：平行處理再匯總
Hierarchical Task Decomposition：階層式任務分解
Iterative Refinement：反覆精煉到滿意為止

最後加上 Human-in-the-Loop，在關鍵環節讓人類參與決策，確保 AI 不會在重要時刻犯錯。

階段四：安全與護欄 (Day 17-19)

這個階段讓人見識到 AI 安全的兩面：防護與攻擊。

** Guardrails**：我們提到 Guardrails 常見手法: 關鍵字過濾、分類器檢測、Prompt 約束、後處理校正。

但接著我們看到了攻擊者的狡猾：Crescendo Attack (多輪溫水煮青蛙)、Base64 編碼繞過、Unicode 隱形字符、表情符號走私、RAG 投毒、Policy Puppetry (偽裝成系統配置)。這場永無止境的軍備競賽提醒我們：安全永遠是進行式，不是完成式。

階段五：速度與成本 (Day 20-22)

技術再好，如果太慢或太貴，使用者也不會買單。

速度指標：TTFT (首字回應時間) 和 TPS (每秒生成速度)。

Prompt Caching 是速度魔法：第一次請求可能要 8 秒，但後續問題只需 1.5 秒

五大成本優化策略：Model Cascading (依任務選模型)、Batch Processing (50% 折扣)、Prompt Engineering (精簡提示)、Smart Caching (多層快取)、Monitoring & Iteration (持續監控)。即使 Token 單價下降，但用量暴增反而讓成本更高，所以優化策略至關重要。

階段六：可觀測性 (Day 23-26)

半夜三點被叫醒的惡夢，讓我們理解可觀測性的重要。AI 系統不會大聲說「我壞了」，問題可能潛伏很久才爆發。

三個好朋友的分工：

Logs (實驗記錄本)：記錄發生了什麼，用於事後調查
Traces (配方軌跡追蹤)：追蹤請求的完整路徑，找出瓶頸在哪
Metrics (即時儀表板)：一眼看出系統是否健康

四大生命指標：效能 (TTFT、TPS、P95/P99)、品質 (成功率、錯誤率、滿意度)、成本 (每日花費、快取命中率)、健康 (可用性、配額使用率)。

透過這些工具，我們從「不知道哪裡出錯」進化到「3 分鐘定位問題」。更重要的是，從「感覺」進化到「測量」，用數據而非直覺做決策。

階段七：道德與品格 (Day 27-29)

技術再強，如果缺乏正確的價值觀引導，可能造成更大傷害。

Constitutional AI 教我們給 AI 一套「做人的道理」——HHH 原則：

Helpful：真正幫助使用者，而不是盲目服從
Harmless：考慮可能的負面影響，不只避免明顯傷害
Honest：誠實面對不知道的事，不裝懂

但光是教導還不夠，我們需要測試 AI 是否真的遵守。Petri 測試框架用 AI 測試 AI，透過 Seed Instructions (出考題)、Simulation (自動產生測試情境)、Scoring (AI 評審 + 人類審核) 三步驟，檢驗 AI 在七大考場的表現：欺騙、奉承討好、助長妄想、配合有害請求、自我保護、權力追求、獎勵機制漏洞。

吹哨者測試更揭露了驚人真相：AI 會主動揭發組織不當行為，但有時連「無害的行為」也會揭發。這不是缺陷，而是它的真實面貌——就像人類一樣，會在壓力下妥協、判斷受情境影響、需要持續監督。

希望這 30 天留給你的不只是技術知識，更是：

系統性思維：從提示工程到可觀測性，每個環節環環相扣，你學會看到完整生態而非單點。
批判性眼光：Context Rot 揭露記憶限制、攻擊手法展示護欄脆弱、Petri 測試顯示 AI 真實面貌。你不再盲目相信，而是懂得驗證。
價值觀指南針：技術永遠不是中立的，每個設計選擇背後都隱藏價值判斷。你不只煉製智慧，更確保智慧被正確價值觀引導。

而 AI 技術日新月異，今天學的技巧明天可能過時，但你學到的「學習方法」和「思維框架」會一直有用。當新技術出現時，或許你可以問問：解決什麼問題？有什麼限制？如何測量效果？如何優化成本？安全性如何？道德風險在哪？